Modelos Lineares Generalizados e Equações de Estimação Generalizadas
Análise de Dados Ambientais
Universidade Estadual de Feira de Santana (UEFS)
Generalized Linear Models (GLM) x Generalized Estimating Equations (GEE)
Diversas possibilidades de análises de dados em pesquisas científicas:
INTRODUÇÃO
As diferentes formas de análise de variância (ANOVA) são algumas das técnicas mais utilizadas em diversas áreas de pesquisa:
INTRODUÇÃO
Nos últimos anos, análises alternativas às ANOVAs têm ganhado espaço:
INTRODUÇÃO
Mas, afinal, o que são esses modelos generalizados?
HISTÓRICO
Mas, afinal, o que são esses modelos generalizados?
HISTÓRICO
HISTÓRICO
Mas, afinal, o que são esses modelos generalizados?
PROPOSTA
Os modelos generalizados propõem uma nova maneira de pensar os dados:
Os modelos generalizados propõem uma nova maneira de pensar os dados:
PROPOSTA
VIABILIDADE
Diversos softwares são capazes de rodar o GLM e o GEE:
Dados transversais x dados longitudinais
INTRODUÇÃO
O GLM e o GEE apresentam diversas aplicações dependendo do delineamento:
O GLM e o GEE englobam diversas análises com diferentes distribuições:
Regressão linear (VD contínua);
Regressão logística (VD binária ou multinomial);
Regressão Poisson (VD contagem);
Regressão hierárquica (relação hierárquica entre variáveis);
Análise do tempo até um evento (sobrevida).
INTRODUÇÃO
Generalized Linear Models (GLM):
Independência das unidades de análise (sujeitos);
Um sujeito não influencia o outro (erros independentes).
DADOS TRANSVERSAIS
GLM:
DADOS TRANSVERSAIS
GLM:
DADOS TRANSVERSAIS
Generalized Estimating Equations (GEE):
Dependência da unidade de análise (mesmo sujeito ao longo do tempo);
Dados correlacionados (erros dependentes).
DADOS TRANSVERSAIS
GEE:
DADOS TRANSVERSAIS
GEE:
Tamanho amostral
DADOS TRANSVERSAIS
Por que usamos GLM e GEE nesses estudos e não ANOVAs ou regressões?
DADOS LONGITUDINAIS
Distribuições, matrizes de covariância e missing data
INTRODUÇÃO
A utilização das ANOVAs requer que alguns pressupostos sejam satisfeitos:
Quando esses pressupostos não são atendidos, algumas saídas incluem:
INTRODUÇÃO
Porém, não parece que estamos “forçando a barra” ao usar essas saídas?
INTRODUÇÃO
Os modelos generalizados possibilitam maior flexibilidade nas análises:
VANTAGENS
VANTAGENS
Os modelos generalizados possibilitam maior flexibilidade nas análises:
Distribuições de probabilidade da VD:
VANTAGENS
Matrizes de covariância:
VANTAGENS
Missing data:
Baseline
Pós-intervenção
Follow-Up 2
Follow-Up 1
VANTAGENS
Missing data:
VANTAGENS
VANTAGENS
Variáveis contínuas
Como nosso fenômeno de interesse está distribuído na natureza?
INTRODUÇÃO
Provavelmente, você já ouviu falar na chamada distribuição normal:
Uma das distribuições mais utilizadas para descrever fenômenos naturais.
INTRODUÇÃO
A curva normal de Gauss é simétrica e baseia-se em dois parâmetros (média e desvio-padrão):
INTRODUÇÃO
Uma das maiores limitações de testes paramétricos é a suposição restrita da normalidade dos dados, mas nem todos os dados são normais…
INTRODUÇÃO
INTRODUÇÃO
DISTRIBUIÇÕES PARA VDS CONTÍNUAS
Algumas das mais comuns incluem:
Normal;
Gamma;
Tweedie (mista).
Gamma:
Distribuição assimétrica que aceita apenas valores positivos ( > 0);
Grande família de distribuições, que pode assumir diferentes formatos
(normal, exponencial, qui-quadrado, F, t, etc..).
https://seeing-theory.brown.edu/probability-distributions/index.html
DISTRIBUIÇÕES PARA VDS CONTÍNUAS
Tweedie:
Distribuição mista que combinas características contínuas e discretas;
Direito (jurimetria: indenização, pena).
DISTRIBUIÇÕES PARA VDS CONTÍNUAS
Como escolher?
DISTRIBUIÇÕES PARA VDS CONTÍNUAS
Como escolher?
DISTRIBUIÇÕES PARA VDS CONTÍNUAS
Variáveis discretas
INTRODUÇÃO
DISTRIBUIÇÕES: VDS DISCRETAS
Algumas das mais comuns incluem:
Bernoulli;
Binomial;
Geométrica;
Binomial negativa;
Poisson.
Bernoulli:
Evento com duas possibilidade que ocorre uma vez;
Experimento binário;
Jogar uma moeda (cara ou coroa).
DISTRIBUIÇÕES: VDS DISCRETAS
Binomial:
Série de Bernoulli encadeada;
Experimentos binários e independentes (nº de tentativas; nº de sucessos);
Número de caras em 5 lançamentos de moeda (nº tentativas é fixo; nº de sucessos varia).
DISTRIBUIÇÕES: VDS DISCRETAS
Geométrica:
Quantas tentativas para obter o primeiro sucesso?;
Experimentos binários independentes;
Quantos lançamentos de moeda até a primeira cara? (nº tentativas varia).
DISTRIBUIÇÕES: VDS DISCRETAS
Binomial negativa:
Quantas tentativas para obter X sucessos? (generalização da geométrica);
Experimentos binários independentes;
Quantos lançamentos de moeda até 6 coroas? (nº tentativas varia; nº de sucessos fixo).
DISTRIBUIÇÕES: VDS DISCRETAS
DISTRIBUIÇÕES: VDS DISCRETAS
Poisson:
Variáveis de contagem (taxas);
Tempo (área) em que eventos independentes podem acontecer;
Número de pessoas que ficam doentes em uma semana (epidemiologia).
DISTRIBUIÇÕES: VDS DISCRETAS
Qual a “carinha” dessas diferentes distribuições?
https://seeing-theory.brown.edu/probability-distributions/index.html
DISTRIBUIÇÕES: VDS DISCRETAS
Como escolher?
Importância para interpretação dos resultados
INTRODUÇÃO
A flexibilidade dos modelos generalizados permitem a escolha de diferentes distribuições de probabilidade para a variável dependente de interesse:
INTRODUÇÃO
Além das diferentes distribuições, também existem diferentes funções de ligação que devem ser especificadas de acordo com seu modelo:
INTRODUÇÃO
Dependendo da função de ligação escolhida, os coeficientes de GLM e GEE podem ser descritos e interpretados de diferentes formas:
Regressão linear;
Regressão logística;
Regressão Poisson.
INTRODUÇÃO
FUNÇÕES DE LIGAÇÃO
Algumas das mais comuns incluem:
Identidade;
Logit;
Log.
A escolha adequada melhora a interpretabilidade dos resultados.
Identidade:
Comum em distribuições para VDs contínuas;
Interpretação como na regressão linear;
Coeficientes β como diferenças médias entre grupos (tamanho de efeito).
FUNÇÕES DE LIGAÇÃO
Logit:
Comum em distribuições para VDs discretas binárias;
Interpretação como na regressão logística;
Coeficientes Exp (β) como razões de chance (odds ratio).
FUNÇÕES DE LIGAÇÃO
Log:
Comum em distribuições para VDs discretas de contagem;
Interpretação como na regressão Poisson;
Coeficientes Exp (β) como razões de taxas (prevalência, incidência).
FUNÇÕES DE LIGAÇÃO
Como escolher?
FUNÇÕES DE LIGAÇÃO
Principais tipos
INTRODUÇÃO
Desenhos longitudinais permitem diferentes observações ao longo do tempo:
Como são observações do mesmo sujeito, elas devem ser relacionadas…
TEMPO
INTRODUÇÃO
Mas, de que forma essa relação ocorre?
INTRODUÇÃO
As ANOVAs de medidas repetidas pressupõe a ‘esferacidade’:
As variâncias devem ser homogêneas ao longo do tempo;
Teste de Mauchly.
INTRODUÇÃO
INTRODUÇÃO
O GEE não requer o pressuposto da ‘esferacidade’:
A VD pode apresentar diferentes variações ao longo do tempo;
Escolha da matriz de covariância adequada para o desenho.
MATRIZES DE COVARIÂNCIA
Algumas das mais comuns incluem:
Intercambiável;
Auto-regressiva de ordem 1;
M-dependente;
Independente;
Não estruturada.
Matriz intercambiável ou permutável:
Efeito do tempo é constante sobre a VD (covariâncias homogêneas);
Conhecida como “exchangeable” ou “compound symmetry structure”.
MATRIZES DE COVARIÂNCIA
Matriz auto-regressiva de ordem 1 ou AR (1):
Dependência temporal;
O que acontece em “t” depende necessariamente do que aconteceu em “t-1”.
MATRIZES DE COVARIÂNCIA
Matriz M-dependente:
Medidas consecutivas apresentam covariâncias comuns, pares de medidas separadas por uma terceira medida também;
Num desenho de 5 tempos: 1 e 2, 2 e 3, 3 e 4 e 4 e 5 apresentam a mesma
covariância, assim como 1 e 3, 2 e 4, 3 e 5 ou 1 e 4 e 2 e 5.
MATRIZES DE COVARIÂNCIA
Matriz independente:
Medidas repetidas não são correlacionadas;
Lembra a ideia dos modelos transversais.
MATRIZES DE COVARIÂNCIA
Obrigado!
Luiz Diego Vidal Santos
Universidade Estadual de Feira de Santana (UEFS)
UEFS | Análise de Dados Ambientais | GLM e GEE